Complétez ce document en remplissant les chunks vides pour écrire le code qui vous a permis de répondre à la question. Les réponses attendant un résultat chiffré ou une explication devront être insérés entre le balises html code. Par exemple pour répondre à la question suivante :
La bioinfo c'est : <code>MERVEILLEUX</code>.
N’hésitez pas à commenter votre code, enrichier le rapport en y insérant des résultats ou des graphiques/images pour expliquer votre démarche. N’oubliez pas les bonnes pratiques pour une recherche reproductible ! Nous souhaitons à minima que l’analyse soit reproductible sur le cluster de l’IFB.
Vous allez travailler sur des données de reséquençage d’un génome bactérien : Bacillus subtilis. Les données sont issues de cet article :
# inclure la lecture seule pour les dossiers rawdata
mkdir -p ~/EvaluationM4M5-EFLAVEN/ANALYSE/RAWDATA
mkdir ~/EvaluationM4M5-EFLAVEN/ANALYSE/QC
mkdir -p ~/EvaluationM4M5-EFLAVEN/ANALYSE/Bacillus_subtilis/ASM904v1/
tree ~/ANALYSE/EvaluationM4M5-EFLAVEN
#Réservation des ressources sur le cluster de l'IFB
salloc --cpus-per-task=10 --mem=1G
Récupérez les fichiers FASTQ issus du run SRR10390685 grâce à l’outil sra-tools [1]
#version sra-tools/2.10.3
module load sra-tools/2.10.3
module list
#Récuperation des données avec la commande fasterq-dump
fasterq-dump -h
srun --cpus-per-task=10 fasterq-dump --split-files -p SRR10390685 --outdir ~/Evaluation_M4M5_EFLAVEN/rawdata/FASTQ
#l'argument --split-files produit 2 fichiers (1 pour les R1 et 1 pour les R2)
#Compression des fichiers ils prendront moins de place sachant que des outils sont adaptés à l'utilisation de fichiers zippés
srun gzip ~/Evaluation_M4M5_EFLAVEN/rawdata/FASTQ/*.fastq ~/Evaluation_M4M5_EFLAVEN/rawdata/FASTQ
Combien de reads sont présents dans les fichiers R1 et R2 ?
Les fichiers FASTQ contiennent reads.
Téléchargez le génome de référence de la souche ASM904v1 de Bacillus subtilis disponible à cette adresse
Quelle est la taille de ce génome ?
La taille de ce génome est de paires de bases.
Téléchargez l’annotation de la souche ASM904v1 de Bacillus subtilis disponible à cette adresse
Combien de gènes sont connus pour ce génome ?
gènes sont recensés dans le fichier d’annotation.
Lancez l’outil fastqc [2] dédié à l’analyse de la qualité des bases issues d’un séquençage haut-débit
La qualité des bases vous paraît-elle satisfaisante ? Pourquoi ?
car comme le montre
Lien vers le rapport MulitQC
Est-ce que les reads déposés ont subi une étape de nettoyage avant d’être déposés ? Pourquoi ?
car
Quelle est la profondeur de séquençage (calculée par rapport à la taille du génome de référence) ?
La profondeur de séquençage est de : X.
Vous voulez maintenant nettoyer un peu vos lectures. Choisissez les paramètres de fastp [3] qui vous semblent adéquats et justifiez-les.
Les paramètres suivants ont été choisis :
| Parametre | Valeur | Explication |
|---|---|---|
Ces paramètres ont permis de conserver reads pairés, soit une perte de % des reads bruts.
Maintenant, vous allez aligner ces reads nettoyés sur le génome de référence à l’aide de bwa [4] et samtools [5].
Combien de reads ne sont pas mappés ?
reads ne sont pas mappés.
Calculez le nombre de reads qui chevauchent avec au moins 50% de leur longueur le gène trmNF grâce à l’outil bedtools [6]:
reads chevauchent le gène d’intérêt.
Utilisez IGV [7] sous sa version en ligne pour visualiser les alignements sur le gène. Faites une capture d’écran du gène entier.
1. toolkit NS. NCBI sra toolkit. NCBI, GitHub repository. 2019.
2. Andrews S. FastQC a quality control tool for high throughput sequence data. http://www.bioinformatics.babraham.ac.uk/projects/fastqc/. http://www.bioinformatics.babraham.ac.uk/projects/fastqc/.
3. Zhou Y, Chen Y, Chen S, Gu J. Fastp: An ultra-fast all-in-one fastq preprocessor. Bioinformatics. 2018;34:i884–90. doi:10.1093/bioinformatics/bty560.
4. Li H. Aligning sequence reads, clone sequences and assembly contigs with bwa-mem. arXiv preprint arXiv:13033997. 2013.
5. Li H, Handsaker B, Wysoker A, Fennell T, Ruan J, Homer N, et al. The sequence alignment/map format and samtools. Bioinformatics. 2009;25:2078–9.
6. Quinlan AR, Hall IM. BEDTools: A flexible suite of utilities for comparing genomic features. Bioinformatics. 2010;26:841–2.
7. Thorvaldsdóttir H, Robinson JT, Mesirov JP. Integrative genomics viewer (igv): High-performance genomics data visualization and exploration. Briefings in bioinformatics. 2013;14:178–92.
A work by Migale Bioinformatics Facility
https://migale.inrae.fr
Our two affiliations to cite us:
Université Paris-Saclay, INRAE, MaIAGE, 78350, Jouy-en-Josas, France
Université Paris-Saclay, INRAE, BioinfOmics, MIGALE bioinformatics facility, 78350, Jouy-en-Josas, France